# Ejercicio Feature Engineering

### Reemplace todos los valores nulos o vacíos del archivo csv pertinente

Este ejercicio consiste en cargar un archivo csv que tiene valores nulos en más de una columna. Es requerido reemplazar los valores nulos por el mejor valor posible.

1. [Importar las librerias y cargar el archivo csv](#1)
2. [Visualizar que datos son los que faltan](#2)
3. [Ver los filas de los datos faltantes y la matriz de correlación](#3)
4. [Reemplazar los valores nulos de la columna mpg](#4)
5. [(Opcional) Reemplazar los valores nulos de mpg utilizando funciones programadas por mí](#5)
6. [Reemplazar los valores nulos de la columna caballos_potencia](#6)

## 1. Importar las librerias y cargar el archivo csv

<a id="1"></a>

In [1]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math

autos = pd.read_csv(os.path.join('./csv/', 'datos_automoviles.csv'))

## 2. Visualizar que datos son los que faltan

<a id="2"></a>

In [3]:
autos.describe(include='all')

Unnamed: 0,nombre,cilindros,peso,anio,territorio,aceleracion,mpg,caballos_potencia,desplazamiento
count,406,406.0,406.0,406.0,406,406.0,398.0,400.0,406.0
unique,312,,,,3,,,,
top,Ford Pinto,,,,USA,,,,
freq,6,,,,254,,,,
mean,,5.475369,2979.413793,1975.921182,,15.519704,23.514573,105.0825,194.779557
std,,1.71216,847.004328,3.748737,,2.803359,7.815984,38.768779,104.922458
min,,3.0,1613.0,1970.0,,8.0,9.0,46.0,68.0
25%,,4.0,2226.5,1973.0,,13.7,17.5,75.75,105.0
50%,,4.0,2822.5,1976.0,,15.5,23.0,95.0,151.0
75%,,8.0,3618.25,1979.0,,17.175,29.0,130.0,302.0


## 3. Ver los filas de los datos faltantes y la matriz de correlación

<a id="3"></a>

In [4]:
autos.loc[autos['mpg'].isnull()]

Unnamed: 0,nombre,cilindros,peso,anio,territorio,aceleracion,mpg,caballos_potencia,desplazamiento
10,Citroen Ds-21 Pallas,4,3090,1970,Europe,17.5,,115.0,133.0
11,Chevrolet Chevelle Concours (Sw),8,4142,1970,USA,11.5,,165.0,350.0
12,Ford Torino (Sw),8,4034,1970,USA,11.0,,153.0,351.0
13,Plymouth Satellite (Sw),8,4166,1970,USA,10.5,,175.0,383.0
14,Amc Rebel Sst (Sw),8,3850,1970,USA,11.0,,175.0,360.0
17,Ford Mustang Boss 302,8,3353,1970,USA,8.0,,140.0,302.0
39,Volkswagen Super Beetle 117,4,1978,1971,Europe,20.0,,48.0,97.0
367,Saab 900S,4,2800,1981,Europe,15.4,,110.0,121.0


In [5]:
autos.loc[autos['caballos_potencia'].isnull()]

Unnamed: 0,nombre,cilindros,peso,anio,territorio,aceleracion,mpg,caballos_potencia,desplazamiento
38,Ford Pinto,4,2046,1971,USA,19.0,25.0,,98.0
133,Ford Maverick,6,2875,1974,USA,17.0,21.0,,200.0
337,Renault Lecar Deluxe,4,1835,1980,Europe,17.3,40.9,,85.0
343,Ford Mustang Cobra,4,2905,1980,USA,14.3,23.6,,140.0
361,Renault 18I,4,2320,1981,Europe,15.8,34.5,,100.0
382,Amc Concord Dl,4,3035,1982,USA,20.5,23.0,,151.0


Se quiere saber que variable(columna) tiene la mejor correlación con la variable que tiene valores nulos
en este caso, la variable que tiene la mejor correlación con mpg es peso.

Pero, como peso puede adqurir múltiples valores es mejor utilizar a la variable cilindros,
porque cilindros sólo puede adqurir pocos valores, por tanto, el valor de la mediana será más preciso.

In [6]:
autos.corr()

Unnamed: 0,cilindros,peso,anio,aceleracion,mpg,caballos_potencia,desplazamiento
cilindros,1.0,0.89522,-0.360762,-0.522452,-0.775396,0.844158,0.951787
peso,0.89522,1.0,-0.315389,-0.430086,-0.831741,0.866586,0.932475
anio,-0.360762,-0.315389,1.0,0.301992,0.579267,-0.424419,-0.381714
aceleracion,-0.522452,-0.430086,0.301992,1.0,0.420289,-0.697124,-0.557984
mpg,-0.775396,-0.831741,0.579267,0.420289,1.0,-0.778427,-0.804203
caballos_potencia,0.844158,0.866586,-0.424419,-0.697124,-0.778427,1.0,0.898326
desplazamiento,0.951787,0.932475,-0.381714,-0.557984,-0.804203,0.898326,1.0


## 4. Reemplazar los valores nulos de la columna mpg

<a id="4"></a>

In [7]:
cilindros_agrupacion = autos.groupby('cilindros')

# Esto crea una serie del mismo tamaño del DataFrame que contiene el valor de la mediana de las mpg con respecto
# a los cilindros.
mediana_mpg_por_cilindro = cilindros_agrupacion['mpg'].transform('median')

# Reemplazar los valores nulos de mpg con la mediana obteniad anteriormente
autos['mpg'].fillna(mediana_mpg_por_cilindro, inplace=True)

## 5. (Opcional) Reemplazar los valores nulos de mpg utilizando funciones programadas por mí

<a id="5"></a>

In [9]:
cilindros_agrupacion = autos.groupby('cilindros')
# Crear una serie que tenga como índices los cilindros y como valor la mediana de las mpg seǵun los cilindros
mediana_mpg_segun_cilindros = cilindros_agrupacion['mpg'].median()

# Funcion que recibe una fila y si tiene la columna mpg como nan le pone el valor de la mediana de las mpg
# según el cilindro
def poner_mediana_en_mpg_nulos(fila):
    if math.isnan(fila['mpg']):
        fila['mpg'] = mediana_mpg_segun_cilindros[fila['cilindros']]
    return fila

# Aplicar  a cada fila del data frame la funcion definida arriba
autos_con_mpg = autos.apply(poner_mediana_en_mpg_nulos, axis=1)

# La misma funcion pero utilizando cálculo lambda
#autos_con_mpg = autos.apply(lambda x: mediana_mpg_segun_cilindros[x['cilindros']] if math.isnan(x['mpg']) else x, axis=1)

## 6. Reemplazar los valores nulos de la columna caballos_potencia

<a id="6"></a>

In [8]:
# El procedimiento es el mismo que el de reemplazar los valores nulos de mpg
mediana_caballos_potencia_segun_cilindros = cilindros_agrupacion['caballos_potencia'].transform('median')
autos['caballos_potencia'].fillna(mediana_caballos_potencia_segun_cilindros, inplace=True)